开发了用于解决顺序实验的最佳设计的贝叶斯方法在数学上是优雅的,但在计算上具有挑战性。最近,已经提出了使用摊销的技术来使这些贝叶斯方法实用,通过培训参数化的政策,该政策在部署时有效地设计了设计。但是,这些方法可能无法充分探索设计空间,需要访问可区分的概率模型,并且只能在连续的设计空间上进行优化。在这里,我们通过证明优化政策的问题可以减少到解决马尔可夫决策过程(MDP)来解决这些局限性。我们使用现代深度强化学习技术来解决等效的MDP。我们的实验表明,即使概率模型是黑匣子,我们的方法在部署时间也很有效,并且在连续和离散的设计空间上都表现出最先进的性能。
translated by 谷歌翻译